home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / infosrvr / doc / www_talk.arc / 000127_timbl@zippy.lcs.mit.edu _Thu Jun 11 18:21:47 1992.msg < prev    next >
Internet Message Format  |  1992-11-30  |  13KB

  1. Return-Path: <timbl@zippy.lcs.mit.edu>
  2. Received: from dxmint.cern.ch by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  3.     id AA20470; Thu, 11 Jun 92 18:21:47 MET DST
  4. Received: by dxmint.cern.ch (dxcern) (5.57/3.14)
  5.     id AA16880; Thu, 11 Jun 92 18:21:50 +0200
  6. Received: by zippy.lcs.mit.edu 
  7.     id AA03819; Thu, 11 Jun 92 12:22:56 -0400
  8. Date: Thu, 11 Jun 92 12:22:56 -0400
  9. From: timbl@zippy.lcs.mit.edu (Tim Berners-Lee)
  10. Message-Id: <9206111622.AA03819@zippy.lcs.mit.edu>
  11. To: connolly@pixel.convex.com, enag@ifi.uio.no, www-talk@nxoc01.cern.ch
  12. Subject: MIME, SGML, UDIs, HTML and W3
  13. Cc: timbl@zippy.lcs.mit.edu
  14.  
  15.  
  16. I have printed off the recent discussion on the new
  17. HTTP, HTML and MIMe and UDIs and done what I can
  18. to disentangle it all in my mind.  I will reply
  19. in one message, becase many of the points are linked.
  20. I know this should be hypertext, with references but
  21. (a) I am away from home and (b) we don't yet have a
  22. universal mail/news archive server running to link to.
  23.  
  24.     HTTP and HTML
  25.  
  26. First of all, Jean-Francois <jfg@dxcern.cern.ch>
  27. points out very properly that the enhaced HTTP
  28. protocol and the enhanced HTML spec are quite
  29. separate things, and should be specified separatedly.
  30. I agree wholeheartdly about all this, and
  31. I aplogize for muddling the levels up till now.
  32.  
  33. (As a small aside, I would point out that wheras a
  34. HTERR file is not very useful, a HTFWD file IS.
  35. It is like a hypertex soft link. But I am happy to
  36. leave that as a separate type of file. It should
  37. certainly get a different extension so that it gets a
  38. different icon)
  39.  
  40.         HTTP: SGML vs ASN/1
  41.  
  42. Let's look at the HTTP protocol first. Carl <barker@cernnext.cern.ch>
  43. is mapping out  the requirements for this, and assuming that SGML
  44. would be a reasonable representation for it in practice.
  45. And so it is.  When the requirements are clear,
  46. it would certainly be interesting to look at mapping them
  47. onto a z39.50 - style ASN/1 implementation. This would
  48. be useful for two reasons. First, the comparison would
  49. point out to us things in z39.50 which we might not have thought of
  50. which would b useful for HTTP. Second, the comparison might give
  51. a nice short or at least well-defined things which the WAIS
  52. guys might like to take into account in the next version
  53. of their protocol.  (I demod W3 to Brewster who hadn't
  54. seen it before live, and was very keen that WAIS and W3
  55. should merge, changing the WAIS protocol if necessary.
  56.  
  57. There is no reason why we shouldn't try both protocols.
  58. If they map well onto each other, its just a question
  59. of having two separate prasers at the low level, building
  60. the same internal structures.
  61.  
  62. When we're talking about an SGML representation,
  63. and describe a file to come later down the link,
  64. I don't think we have to use the NOTATION= attribute with a notation
  65. type, because we won't in fact be talking about
  66. the notation of an SGML element.
  67. The format in this case is not something which the SGML
  68. parse is aware of.
  69.  
  70. I must admit I was disappointed to learn that SGML
  71. didn't allow for any way of including 8 bit data. Thanks Eric
  72. <enag@ifi.uio.np> for your explanations.
  73.  
  74.  
  75.     MIME and SGML
  76.  
  77. Dan <connolly@pixel.convex.com> rightly points out
  78. the relevance of the coming MIME standards. There
  79. are several things which we must separate here, though:
  80.  
  81.    1. The MIME classification of data formats
  82.    2. The MIME format for multi-part messages
  83.    3. The MIME format for rich text.
  84.    4. The MIME formal for external document addresses (MIME UDIs)
  85.  
  86. 1. MIME classification of data formats
  87.  
  88.     We must do the same disentangling job which JF did
  89.     on HTML to MIME.
  90.  
  91.     First of all, the MIME job of classifying data formats
  92.     is a useful job which is ideally done by just one
  93.     bunch of people. Ther has been some suggestion that
  94.     the MIME classifications are not well enough defined,
  95.     but they seem to be the best effort yet and one can only
  96.     assume they will eveolve in the right direction. So I'd
  97.     back the use of these for W3.
  98.  
  99.  
  100. 2. The MIME format for multi-part messages
  101.  
  102.     This is necessary for sending a multi-part
  103.     document over a mail link.  We have to ask ourselves
  104.     whether it is reasonable to use over a binary link.
  105.     Personally, my initial impression is that the MIME
  106.     stuff, using as it does terminators such as
  107.     --xxx-- separated by blank lines, looks more horrible
  108.     to work with in this respect than SGML! Still we have
  109.     the problem of restrictions on the content:
  110.     Must not contain delimiters, limited 7 bit character set,
  111.     line orientation, in fact all the things which email
  112.     carries as a restriction.  This is really taking on board
  113.     a legacy of all the mail which has evolved over the years.
  114.     Do we need that for our new ultra-fast hypertext access
  115.     protocol?
  116.  
  117.     [Compare the MIME format with the rather cleaner NeXT
  118.     Mail format which is as far as I understand simply
  119.     a uuencoded compressed tar file of all the bits, where
  120.     uuencoding is designed as an optimal way of getting over
  121.     mail transport restrictions, compress does what it says
  122.     and tar is a multipart wrapper designed for that only. Not
  123.     standard outside unix, perhaps, but cleaner in that the
  124.     mail formatting is done at the last minute and doesn't
  125.     affect the other operations]
  126.  
  127.     If course, with HTTP2, multipart/alternative shouldn't
  128.     be needed.
  129.  
  130.   Multipart for hypetext?
  131.  
  132.     Now, Dan not only suggests the use of this for
  133.     multipart messages, but also suggests that a hypetext
  134.     document shoudl necessarily contain many parts,
  135.     one on SGML and one for each link as a MIME external document.
  136.     This means that an SGML hypertext document can never stand
  137.     on its own! An SGML parser will always need to have
  138.     a MIME parser sitting just outside.  I don't like
  139.     this: I feel we have to separate these two things.
  140.  
  141.     Suppose that an SGML document does want to
  142.     be sent in a MIME message and does want to
  143.     refer to other parts of that MIME message. In that case,
  144.     it seems reasonable to have a format for that.
  145.     However, when an SGML document is seen by itself, and
  146.     refers to a news message for example, then there is
  147.     no resaon for it not to be able to contain a
  148.     complete reference within itself.
  149.  
  150.     When SGML documents include other files, then
  151.     the SYSTEM value is typically a file name.
  152.     It is a reeference to something outside. The
  153.     precedent is set that SGML documents are allowed
  154.     to refer to things outside.
  155.  
  156.     I think part of you objection, Dan is based on 
  157.     a dislike of the UDI syntax -- which I'll come to later.
  158.   
  159. 3. The MIME format for rich text.
  160.  
  161.     Here, I am not so impressed.  Basically, the MIME
  162.     people are at the same level that we were before we started
  163.     this cleanup, that they have SGML-LIKE stuff which isn't SGML.
  164.     As its not difficult to make it SGML, they should do that.
  165.     Comparing MIME's rich text and HTML, I see that
  166.     we lack the characetr formatting attributes BOLD and ITALIC
  167.     but on the other hand I feel that our treatment of
  168.     logical heading levels and other structures is much more powerful
  169.     and has turned out to provide more flexible formatting    
  170.     on different platforms than explicit semi-references
  171.     to font sizes.  This is born out by all the systems which
  172.     use named styles in preference to explicit formatting,
  173.     LaTeX or other macros instead of TeX, etc etc.
  174.  
  175.     So technically, HTML has some things to give MIME's rich
  176.     text. Are the MIME people still open to additions?
  177.     If not, I would suggest we add BOLD and ITALIC (or
  178.     two emphasis styles for characters), and keep HTML
  179.     separete from MIME's rich text, proposing it as a
  180.     MIME text standard.
  181.     (HP0 and HP1 were in the HTML spec but as unimplemented)
  182.   
  183. 4. The MIME format for external document addresses (MIME UDIs)
  184.  
  185.     As Ed <emv@msen.com> says, this is a bit of a non-issue,
  186.     as MIME addersses and currnet style UDIs map onto
  187.     each other. However, we have to agree on a "concrete
  188.     syntax" (or two... :-) in the end.
  189.  
  190.     It's like the difference between an x400 style mail address
  191.     generated from an internet address, and that internet address.
  192.     Which do you prefer
  193.  
  194.         timbl@zippy.lcs.mit.edu
  195.  
  196.     where the sections of the domain name are defined
  197.     to have no semantics at all, or
  198.  
  199.         S=timbl; HO=zippy; OU=lcs; O=MIT; SECTOR=edu
  200.  
  201.     (this is not real x400 - don't use it!) or
  202.  
  203.         user=timbl
  204.         host=zippy
  205.         group=lcs
  206.         organization=mit
  207.         sector=education
  208.  
  209.     You say, Dan, that you "don't think [UDIs] work".
  210.     Do you mean people don't use them in all correspondance?
  211.     Well, what DO they use? They use ange-ftp addresses    
  212.     for FTP (like info.cern.ch:/pub/www/doc/*.ps),
  213.     which are even more terse than UDIs! They use news
  214.     message-ids which are UDIs.
  215.  
  216.     Let me say that I personally don't much care about the
  217.     arbitrary punctuation. There are a few things, though,
  218.     which are important:
  219.  
  220.     -  The thing should be printable 7-bit ASCII.
  221.  
  222.        Unlike arbitrary document formats,
  223.        UDIs must be sendable in the mail
  224.  
  225.     - White space should not be significant. I would
  226.       accept the presence of some arbitrary white space
  227.       as a delimiter, but one cannot distinguish between
  228.       different forms and quantities of white space.
  229.       This is because things get wrapped and unwrapped.
  230.  
  231.       Dan, you object to UDIs because they don't
  232.       contain white space. But that is purely so that
  233.       to CAN wrap them onto several lines and still
  234.       recuperate them.  You can put white space
  235.       in but it shouldn't mean anything. (This is not possible
  236.       in W3 as is but it is in the UDI document)
  237.  
  238.       I don't see why you say they
  239.       can't be put as an SGML attribute. They are just
  240.       text strings. They will be quoted of course
  241.       (Yes, I know the old NeXT browser doesn't quote them)
  242.       Is that not allowed? What are the problem characters?
  243.       If there SGML problem characters in the UDI spec, they
  244.       probably are ruled out of SGML for a reason.
  245.  
  246.       (I recently saw in a galley proof of an article in which
  247.       our mail adress had been hypernated! UDIs must be
  248.           squeezable into 2 inch columns.)
  249.  
  250.         There is a sematic difference between a tagged
  251.     list and a punctuation-divided set, and that is that
  252.     the former has defined semantics but the latter doesn't and
  253.     can therefore be extended more easily.  I suggest that tagging
  254.     could be used for the four bits of an address
  255.     that must be separable by all sides, which are
  256.     limited in number (4). Within those bits, the string should
  257.     be transparent as the protocol does not require
  258.     every party to understand the innards. 
  259.  
  260.     The bits are
  261.             MIME        Used by
  262.  
  263.     name space:    ACCESS        Used by client
  264.  
  265.     server details:    HOST, PORT    used by client, protocol-dependent
  266.     
  267.     local doc id:    PATH        used by server only
  268.  
  269.     anchor id:     (none)        used by presntation application only
  270.  
  271.     It seems useful to maintain the ability to work out which
  272.     bits are seen by whom.
  273.  
  274.     I only used punctation to separate these parts in the W3 UDI
  275.     because people like internet addresses and mail addresses
  276.     and filenames and telephone numbers and message-ids and
  277.     room numbers and zip codes which don't have tags and
  278.     do make do with punctuation.  If the groundswell of
  279.     opionion on this list is that tags are better, then
  280.     let's use tags!
  281.  
  282.     Whatever we sue, it should be as quotable in an SGML
  283.     attribute as in a MIME external reference as in a
  284.     scribbled note or a link-pasteboard or whatever.
  285.     (The U is for Universal, NOT Unique!)
  286.  
  287. PHILOSOPHY
  288.  
  289.     In the W3 world, the model is of a dynamic world of
  290.     documents which generally have some "home" or
  291.     (or several), which can be found using sufficient
  292.     intelligence and the help of ones friends given the UDI.
  293.  
  294.     A mail message has no home, and so in principle the parts
  295.     of it have no home. When a hypertext multipart message
  296.     (really consisting of multiple hypertext documents)
  297.     has links between its parts they refer to each other
  298.     within a completely isolated conetext.
  299.  
  300.     There are now two possibilites when the message is in fact
  301.     archived and made readable. One is we say that the parts
  302.     are then addressed as parts ofthe message, wherever it
  303.     may be. The other is to say that the parts of the message
  304.     are very likely things which had some original home.
  305.     In that case, the message is just giving the reciever
  306.     a copy to save him the (perhaps insurmountable) trouble
  307.     of retrieving it.  In this case the parts should be
  308.     identified with thier original UDIs so that the
  309.     receiver is not confsed with multiple documents which
  310.     are in fact the same thing. 
  311.     
  312.  
  313. I think that's all the comments I have on what I've read so far..
  314.  
  315.     Tim
  316. ________________________________________________________________
  317. Tim Berners-Lee
  318. World-Wide Web initiative
  319. CERN, 1211 Geneva 23, Switzerland        timbl@info.cern.ch
  320. Visiting MIT: NE43-513, (617)234 6016    timbl@zippy.lcs.mit.edu
  321.  
  322.  
  323.  
  324.  
  325.  
  326.  
  327.  
  328.  
  329.  
  330.  
  331.  
  332.  
  333.